مدل سازی غیرخطی قطع پوانکاره سیگنال گفتار در ترکیب با تحلیل حوزه فرکانس به منظور افزایش صحت عملکرد سیستمهای بازشناسی گفتار

Authors

ayuob jafari

islamic azad university, qazvin branch farshad almasganj

amirkabir university of technology maryam nabi bidhendi

amirkabir university of technology

abstract

در این مقاله روشی جدید برای افزایش صحت سیستمهای بازشناسی گفتار، با استفاده از ترکیب بردارهای ویژگی به دست آمده از مدل سازی غیرخطی فضای فاز بازسازی شده سیگنال گفتار با ویژگیهای معمول به دست آمده از تحلیل حوزه فرکانس ارائه می شود. بر اساس نظریه پذیرفته شده کنونی، در صورت انتخاب تعداد بُعد کافی برای بازسازی فضای فاز سیگنال، این فضا به صورت کامل دینامیک سیستم تولید کننده آن را نشان می دهد و بنابراین می تواند شامل اطلاعات مفیدی باشد که در تحلیل فرکانسی معمول - مانند استخراج ضرایب کپسترال مل mfcc – در دسترس نیست. همچنین از آنجا که سیستمهای پیچیده ای مانند سیستم تولید گفتار، رفتارهایی نوسانی و تناوبی نشان می دهند، قطع پوانکاره می تواند به عنوان ابزاری مؤثر در تحلیل این رفتارها به کار رود. در این مقاله نوعی مدل سازی غیرخطی با استفاده از مدل مخلوط گوسی ( gmm) بر روی نقاط قطع پوانکاره سیگنال گفتار انجام می شود. بردار ویژگی نهایی از یک مرحله انتخاب ویژگی بر روی پارامترهای مدل مخلوط گوسی و بردار ویژگی های فرکانسی معمول mfcc حاصل می شود. از یک سیستم بازشناسی مبتنی بر مدل مخفی مارکوف( hmm) و پایگاه داده تیمیت به منظور ارزیابی سیستم ارائه شده استفاده شده است. نتایج آزمایشها بهبودی در حدود 7/5 درصد در صحت بازشناسی گفتار واج گسسته را نسبت به حالت استفاده از ویژگیهای معمول mfcc نشان می دهد. این روش جدید می تواند به عنوان روشی مؤثر و جایگزین در روشهای استخراج ویژگی به ویژه برای سیستمهای با ماهیت غیرخطی شدید استفاده شود.

Upgrade to premium to download articles

Sign up to access the full text

Already have an account?login

similar resources

پایه‌گذاری بستری نو و کارآمد در حوزه بازشناسی گفتار فارسی

Although researches in the field of Persian speech recognition  claim  a  thirty-year-old  history in Iran  which has achieved considerable progresses, due to the lack of well-defined experimental framework, outcomes from many of these researches are not comparable to each other and their accurate assessment won’t be possible. The experimental framework includes ASR toolkit and speech database ...

full text

تحلیل سیگنال گفتار بیماران آلزایمری فارسی‌زبان

آلزایمر یک نوع اختلال عملکرد مغزی است که به‌تدریج توانایی‌های ذهنی بیمار تحلیل می‌رود؛ ازجمله علائم اولیة این بیماری فقدان حافظه، اختلال در تصمیم‌گیری و اشتباه در انتخاب واژگان درست است؛ بنابراین، پردازش سیگنال گفتار این بیماری توجه بسیاری از پژوهشگران را در دهه اخیر جلب کرده است. تشخیص بیماری آلزایمر با استفاده از سیگنال گفتار به فرهنگ و زبان و محتوای گفتار، جنسیت، سن، لهجه و بسیاری از عوامل د...

full text

روش های اتصال گرای جدید بر گرفته از سامانه ادراک گفتار انسان به منظور بهبود بازشناسی گفتار ماشینی

بازشناسی خودکار گفتار در شرایط عدم تطابق دادگان آموزش و آزمون، یکی از چالش های مهم در این مورد است. به منظور کاهش هر چه بیشتر این عدم تطابق، روش های مرسوم، سعی در بهسازی گفتار یا تطابق مدل آماری دارند. در این زمینه از جمله روش های دیگر می توان به آموزش مدل در شرایط مختلف اشاره کرد. موفقیت در این روش ها، در مقابل کارایی سیستم درک و بازشناسی در انسان بسیار ابتدایی به نظر می رسد...

full text

بهسازی چندکاناله سیگنال گفتار با استفاده از روش های مبتنی بر تخمین در حوزه فرکانس

با توجه به کاربرد روزافزون سیستم های گفتاری در زندگی امروزی و وجود عوامل مخرب محیطی از جمله نویز، بهسازی گفتار از اهمیت زیادی برخوردار است. برای بهسازی گفتار روش های مختلفی وجود دارد که برخی مبتنی بر تخمین در حوزه زمان و برخی مبتنی بر تخمین در حوزه فرکانس هستند. روش های بهسازی گفتار را می توان به انواع روش های تک کاناله، آرایه میکروفونی و میکروفون های توزیع شده تقسیم کرد. ساختار میکروفونی توزیع...

بازشناسی گفتار احساسی و شناسایی حالت گفتار در زبان فارسی

حالت گفتار سبب افزودن اطلاعات اضافی نسبت به اطلاعات نوشتاری می شود. از طرف دیگر، وجود حالت در گفتار سبب بروز مشکل در فرایند بازشناسی گفتار می شود. در تحقیقات قبلی نشان داده شد که حالت گفتار سبب تغییرات اساسی در پارامترهای گفتاری می شود. برای بهبود نتایج بازشناسی گفتار با حالت، ابتدا باید تأثیر آن را بر پارامترهای گفتاری به دست آورد و در مرحله بعدی، از پارامترهای مناسبی برای بهبود نتایج بازشناسی...

full text

بررسی میزان تنکی سیگنال گفتار به منظور کاربرد در بهسازی گفتار

نمایش های تُنُک، ابزار قدرتمندی را در آنالیز و پردازش سیگنال های گفتار و صوت ایجاد کرده اند و تنکی به صورت یک مفهوم کلیدی و مهم در زمینه های مختلفی چون جداسازی کور منابع، فشرده سازی، نمونه برداری و آنالیز سیگنال در آمده است. هدف از این پایان نامه، بررسی تنکیِ سیگنال گفتار در حوزه های مختلف و استفاده از نتایجِ این بررسی در مسأله ی بهسازی گفتار است. با توجه به اینکه در کاربردهای مختلف، تعابیر متفاوت...

15 صفحه اول

My Resources

Save resource for easier access later


Journal title:
مهندسی برق مدرس

جلد ۱۰، شماره ۳، صفحات ۵۵-۷۰

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023